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摘 要 : [目的 /意义 ] 关 键 词 作为 一 种 能 够 揭示 学 术 文 本 主题 及 核心 内 容 的 词汇 或 术语 ,对 其 进行 功能 识别 可 为 知识 和 文 
献 的 快速 、 精 确 获 取 提 供 底层 索引 支持 。[ 方 法 /过 程 ] 针 对 现 有 研究 在 关键 词 上 下 文 建 模 中 多 局 限于 文本 层面 的 
符号 语义 表征 ,在 深入 挖掘 文献 行书 规律 的 基础 上 ,提出 一 种 基于 多 特征 融合 的 词汇 功能 识别 模型 。 模 型 在 采用 
BERT 模型 捕获 关键 词 上 下 文 依赖 特征 的 同时 ,融合 关键 词 在 关键 词 列 表 和 全 文中 的 位 置信 息 以 及 词汇 功能 先 验 
知识 信息 ,继而 采用 注意 力 机 制 和 前 馈 神 经 网 络 对 关键 词 进行 问题 方法 的 语义 功能 判别 。| 结果 /结论 ] 实验 结果 
显示 ,关键 词 的 位 置信 息 和 先 验 知识 均 能 有 效 提升 关键 词语 义 功能 识别 性 能 ,其 中 先 验 知 识 对 识别 效果 的 提升 有 


较 大 贡献 。 


™ 
词 : 词汇 功能 识别 
长 号 : G250 


学 术 文 本 关键 词 BERT 多 特征 融合 


© 
is 二 义 表征 ,忽视 了 关键 词 位 置 及 文本 结构 等 重要 信息 ,而 
@ | 已 


从] 关键 词 作为 学 术 文献 中 映射 全 文 主题 内 容 的 词汇 


或 天语 ,是 一 种 能 够 对 文本 内 容 和 主题 高 度 凝 练 概括 
的 功能 性 词汇 , 亦 可 为 信息 检索 .知识 组 织 以 及 大 规模 
文本 计算 提供 多 层次 的 语义 标签 。 然 而 ,过 于 着 重 精 
中 种 的 关键 词 牺牲 了 大 量 的 上 下 文 信息 ,由 此 造成 的 
语 蜂 功 能 模糊 、 使 用 意图 不 明 使 其 在 脱离 原文 后 便 难 
以 释 读 。 相 对 于 其 他 的 检索 方法 ,以 关键 词 为 条 件 语 
句 等到 的 查询 结果 通常 需要 更 多 的 二 次 处 理 来 进行 信 
息 的 过 滤 和 筛选 ") 。 例 如 ,读者 期 望 通过 检索 关键 词 
“BM25 "来 查阅 BM25 的 技术 细节 以 及 算法 改进 , 却 返 
回 大 量 关于 将 BM25 应 用 于 某 一 具体 问题 的 文献 。 因 
此 ,标识 学 术 文献 中 关键 词 的 语义 功能 ,能 够 为 指向 性 
的 快速 知识 索引 构建 底层 支持 ,对 于 知识 精确 检索 和 
知识 结构 化 表示 均 具 有 重要 的 理论 意义 和 实践 价值 。 

关键 词语 义 功能 的 识别 需 在 理解 其 上 下 文 语 境 的 
基础 上 ,充分 挖掘 潜在 的 写作 规律 来 完成 。 然 而 ,已 有 
研究 在 词汇 上 下 文 建 模 中 多 局 限于 文字 层面 的 符号 语 


这 些 特征 在 一 定 程度 上 能 够 侧面 揭示 关键 词 的 功能 
色 。 依 据 科 技 文献 的 行书 范式 ,不 同 功能 的 关键 词 在 
全 文中 应 具有 不 同 的 概率 分 布 ,文献 ”中 作为 研究 问 
题 的 “图 像 分 类 ”更 可 能 会 在 引言 或 相关 工作 章节 中 
进行 着 重 描述 ,而 作为 研究 方法 的 “支持 向 量 机 ” 则 更 
倾向 频繁 显现 于 方法 或 实验 章节 。W. Lu 等 ”通过 对 
文献 关键 词 位 置 的 统计 分 析 发 现 关键 词 列表 中 的 排列 
顺序 也 依循 一 定 规律 :描述 问题 或 方法 的 关键 词 多 处 
于 列表 的 前 置 位 ,该 现象 在 中 文 期 刊 论文 中 尤为 突出 。 
此 外 ,由 于 不 同学 科 所 研究 问题 的 差异 ,相同 的 关键 词 
在 不 同学 科 或 领域 中 存在 不 同 的 语义 功能 倾向 。 为 有 
效 表征 并 运用 这 些 特征 ,本 文 分 别 设计 了 不 同 特征 的 
表示 方法 ,构建 了 一 种 多 特征 融合 的 关键 词语 义 功能 
识别 模型 ,通过 引入 关键 词 位 置信 息 和 先 验 知识 信息 ， 
在 充分 捕获 关键 词 上 下 文 特征 的 基础 上 实现 了 关键 词 
的 语义 功能 识别 。 


# 本 文系 国家 自然 科学 基金 项 目 " 基 于 多 语义 信息 融合 的 学 术 文 献 引文 推荐 研究 ”( 项 目 编号 :71673211 ) 和 国家 自然 科学 基金 青年 项 目 " 基 
于 深度 语义 挖掘 的 引文 推荐 多 样 化 研究 ”( 项 目 编号 :71704137 ) 研究 成 果 之 一 。 

作者 简介 : 张 国 标 (ORCID :0000 -0002 - 1568 - 2492 ) ,博士 研究 生 ; 李 朋 程 (ORCID :0000 -0003 - 1427 -7716 ) ,博士 研究 生 ; 陆 伟 (ORCID : 
0000 -0002 - 0929 -7416 ) , 院 长 ,教授 ,博士 生 导 师 , 通 讯 作者 ,E-mail: weilu@whu. edu. cn; 程 齐 凯 (ORCID :0000 - 0003 - 3904 - 8901 ) , 副 教 


授 ,博士 。 


收 稿 日 期 :2020 -10 -20 修 回 日 期 :2021 -02 -08 本 文 起 止 页 码 :89 -96 本 文责 任 编辑 : 杜 杏 叶 


89 


团 定 情 良 三 作 


第 65 卷 第 9 期 2021 年 5 月 


~hinyviwv 人 人 和 下 甘 日 于 | 
UL hinaX IV 瑟 1F 期 1 


2 相关 工作 概述 


关键 词语 义 功能 识别 属于 学 术 文本 词汇 功能 研究 
的 一 部 分 ,目前 研究 还 处 于 初步 探索 阶段 。 早 期 的 词 
汇 功能 研究 主要 围绕 词汇 的 语法 功能 (Lexical Func- 
tional Grammar, LFG) bo 展开 ,应 用 基于 统计 的 自然 语 
言 处 理 方法 从 语法 结构 层面 分 析 词汇 的 主 谓 宾 角色 。 
其 中 ,应 用 比较 广泛 的 主要 有 条 件 随机 场 模型 (CRF ) 
和 隐 马 尔 可 夫 模 型 (HMM) 。T. Moon 等 ”通过 分 析 
文本 内 容 和 功能 词 之 间 的 不 同 ,设计 了 一 种 利用 边界 
条 件 的 HMM 模型 。 孙 静 等 '" 先 用 词典 对 文本 进行 词 
性 标注 ,再 利用 CRF 进行 迭代 标注 ,标注 结果 不 断 迭 
代 优化 。 然 而 ,词汇 的 语法 功能 仅 能 体现 词汇 之 间 的 
鲁 法 关系 ,无 法 从 语义 层面 反映 词汇 的 真实 含义 。T. 
太 io 等 "1 从 语义 层面 对 词汇 的 功能 进行 了 划分 , 定 
“领域 “问题 "“ 方 法 ”及 “其 他 ”4 个 词汇 功能 > 


了 琴行 了 扩展 ,对 专利 及 科研 文献 的 摘要 进行 词汇 语 
关 到 能 识别 。S，Gupta 等 “借助 句法 模板 以 及 重 抽样 


在 8CL 论文 数据 集 上 进行 了 实验 ,结果 显示 在 领域 
问题 .技术 3 个 功能 类 别 上 的 效果 有 了 较 大 的 提升 ,但 
伐 诬 无 法 达到 实用 水 平 。C，T，Tsai 等 咪 按 技术 \ 应 
用 奖 类 对 词汇 功能 进行 划分 ,并 采用 多 特征 结合 和 重 
怀 坚 的 方法 ,取得 了 较 好 的 性 能 表现 。 程 齐 凯 等 "对 
学 洒 文 献 词汇 功能 的 概念 进行 了 进一步 界定 ,设计 了 
词法 .句法 ,组 块 等 27 种 特征 ,结合 条 件 随机 场 构 建 了 
镍 十 学 术 文献 研究 问题 与 研究 方法 的 识别 模型 ,并 在 
GUPTA 数据 集 上 进行 了 验证 。K.，Hefernan 等 "| 为 获 
取 学 术 文献 中 的 问题 和 方法 ,采用 SVM 等 多 种 机 器 学 
习 方法 对 文本 中 的 词汇 进行 了 问题 方法 的 分 类 判别 。 
陆 伟 等 以 学 术 文献 中 的 关键 词 作为 语义 功能 识别 
对 象 ,利用 BERT 及 LSTM 方法 构建 分 类 模型 ,对 关键 
词 所 承载 的 问题 和 方法 语义 功能 进行 了 分 类 。 

总 体 而 言 ,研究 人 员 已 对 学 术 文本 中 的 标题 摘要 
和 关键 词 进 行 了 词汇 语义 功能 识别 探索 ,在 取得 一 些 
成 果 的 同时 也 暴露 出 一 些 不 足 之 处 。 由 于 词汇 语义 功 
能 是 指 词汇 在 文本 中 承载 的 语义 功能 角色 ,已 有 方 
法 仅 针对 词汇 的 上 下 文 信息 进行 建 模 。 然 而 ,仅仅 使 
用 上 下 文 依赖 特征 无 法 实现 词汇 语义 信息 的 充分 表 
征 ,词汇 在 文献 中 的 位 置信 息 与 知识 传承 中 的 词汇 使 
用 习惯 也 在 一 定 程度 上 揭示 了 其 对 应 的 语义 功能 。 例 
如 ,在 学 术 文献 中 问题 类 的 词汇 多 出 现 于 引言 或 文献 


回顾 章节 ,方法 类 的 词汇 则 更 倾向 于 频繁 出 现在 方法 
或 实验 章节 。 因 此 ,本 文 拟 结合 关键 词 的 位 置信 息 和 
先 验 知识 信息 ,构建 关键 词语 义 功 能 识别 模型 。 


3 ”关键 词 多 特征 表示 与 融合 


3.1 关键 词 多 特征 表示 
3.1.1 上 下 文 依赖 特征 

科技 文献 的 标题 是 文章 的 眉目 ,是 对 全 文 的 最 精 
粹 的 概括 ,是 对 文章 研究 主题 的 揭示 ,往往 能 够 体现 文 
章 的 研究 问题 和 研究 的 创新 。 科 技 文献 摘要 是 对 全 文 
内 容 的 精简 陈述 ,具有 短 、 精 、 完 整 三 大 特征 ,一 般 应 说 
明 研究 目的 .方法 ,结果 和 结论 等 。 近 年 来 科技 期 刊 逐 
步 要 求 作者 提供 结构 式 摘 要 ,简明 描述 研究 的 主要 内 
容 。 因 此 ,可 以 使 用 标题 和 摘要 信息 来 捕捉 关键 词 的 
上 下 文 依赖 特征 。 在 文献 中 提 及 问题 和 方法 时 ,其 上 
下 文 使 用 了 较 多 的 习惯 语 ,如 “基于 /XX 的 A…”“… 采 
有 /XX 方法 …” 和 “… 是 /XX 问题 /… "等 ,这 些 习惯 性 
的 写作 模式 构成 了 关键 词 上 下 文 特征 。 本 文采 用 目前 
文本 处 理 效果 最 好 的 BERT 模型 来 实现 关键 词 上 下 文 
依赖 特征 的 表示 。 
3.1.2 位 置 特征 

不 同 语义 功能 类 别 的 关键 词 ,在 文中 的 表述 细节 
应 具有 一 定 区 别 。 相 对 于 其 他 复杂 开放 场景 中 的 文 
本 ,学 术 文 本 通常 具有 严谨 的 逻辑 结构 和 规范 的 层次 ， 
遵循 科学 研究 的 一 般 过 程 ,从 提出 研究 问题 .介绍 研究 
方法 到 结果 的 讨论 和 结论 '""。 通 常 而 言 ,一 篇 完整 的 
研究 性 论文 大 致 可 分 为 5 个 章节 块 : 引 言 .相关 工作 、 
方法 ,实验 以 及 结论 ,各 个 章节 在 文中 依次 承担 不 同 的 
结构 功能 。 例 如 ,引言 的 作用 是 对 论文 所 涉及 的 背景 、 
问题 等 进行 初步 的 介绍 ,相关 工作 则 是 对 问题 相关 文 
献 进 行 系统 的 查阅 分 析 。 在 这 一 机 理 下 ,不 同 语义 功 
能 类 别 的 关键 词 ,在 不 同 章节 中 的 表述 细节 应 具有 一 
定 区 别 , 撒 述 研究 问题 的 关键 词 会 频繁 出 现 于 引言 和 
相关 工作 章节 ,而 描述 研究 方法 的 关键 词 则 更 倾向 于 
表述 在 方法 和 实验 章节 。 考 虑 到 关键 词 在 不 同 章节 的 
词 频 信息 能 够 在 一 定 程度 上 揭示 其 相应 的 语义 功能 ， 
本 文 将 关键 词 的 位 置信 息 和 词 频 信息 进行 向 量化 表 
示 ,通过 统计 关键 词 在 各 章节 出 现 频 次 ,来 构造 特征 向 


= 


| 


是 


此 外 ,对 于 关键 词 在 关键 词 列表 中 的 位 置 特征 ,本 
文采 用 One-hot 编码 形式 对 关键 词 列表 排序 信息 进行 
表示 ,将 关键 词 的 位 置 序号 处 的 数字 设 为 1 ,其 他 位 置 
数字 设 为 0。 
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3.1.3” 先 验 知识 特征 

相同 的 关键 词 在 不 同学 科 或 领域 中 通常 有 着 既定 
的 功能 倾向 。 例 如 “支持 向 量 机 "在 机 器 学 习 领 域 作 
为 一 种 研究 问题 出 现 , 通 过 改进 以 优化 分 类 器 的 准确 
率 和 召回 率 ;而 在 图 像 识 别 领域 , “支持 向 量 机 ” 则 更 
大 概率 作为 研究 方法 出 现 。 基 于 此 规律 即 可 以 通过 统 
计 关 键 词 的 领域 功能 属性 类 别 概率 作为 先 验 知识 。 本 
文 同样 采用 概率 形式 对 关键 词 在 某 一 领域 的 问题 方法 
属性 进行 表示 ,对 于 某 一 关键 词 ,统计 其 在 该 领域 数据 
集 内 作为 问题 出 现 的 次 数 、 作 为 方法 出 现 的 次 数 及 作 
为 其 他 功能 出 现 的 次 数 ,计算 概率 ,最 终生 成 特征 向 


本 -多 特征 融合 是 将 多 种 特征 信息 融合 成 一 个 新 的 特 
征 痊 量 用 于 下 一 步 的 词汇 功能 识别 。 不 同 特征 的 有 效 
5 命 可 以 充分 利用 各 特征 所 蕴含 的 类 别 信息 以 及 充分 
地 征 互补 作用 ,然而 简单 的 特征 串联 拼接 没有 充 
淘 虑 不 同 特征 之 间 的 差异 性 。 针 对 这 一 问题 ,研究 
采 明 注意 力 机 制 ( Attention ) 来 区 分 不 同 特征 在 分 类 任 


避风 被 描述 为 一 个 查询 ( query ) 到 一 系列 键 值 (key- 
vi ) 对 的 映射 。 在 计算 注意 力 概率 时 主要 分 为 3 步 : 
query 和 每 个 key 进行 相似 度 计算 得 到 权重 ;回合 
用 fmax 函数 对 这 些 权重 进行 归 一 化 ;加 将 权重 和 相 
应 网 value 进行 加 权 求 和 得 到 最 后 的 注意 力 概率 ,每 步 
的 注 算 方法 如 公式 (1) - (3) 所 示 : 
OO L(H) =tanh(wH +06b) 
exp(L(H)) 
Fexp (LH), 
公式 (2) 
下 = 万 .wa 公式 (3) 
公式 (1) - (3) 中 ,5(B) 表示 向 量 互 对 应 特征 的 
权重 ,w 表示 权重 系数 ,b 表示 偏差 ,tanh 是 激活 函数 ,a 
表示 经 过 归 一 化 后 的 特征 权重 ,i 表示 向 量 互 的 第 站 个 
值 。 
注意 力 机 制 对 所 构造 的 4 种 关键 词 特征 进行 加 权 
变换 ,以 突出 重要 的 特征 对 词汇 功能 识别 结果 的 贡献 ， 
提高 模型 的 分 类 准确 度 。 其 流程 见 图 1: 针 对 输入 的 
数据 X 通过 特征 表示 输出 所 提取 的 4 种 特征 ,分 别 用 


公式 (1) 


a=soft max(L(H)) = 


数 权重 计算 ,并 通过 softmax 函数 权重 归 一 化 得 到 其 注 
意 力 概率 w。 最 后 ,将 特征 向 量 互 与 所 得 概率 a 进行 
点 乘 以 实现 加 权 融 合 ,得 到 融合 特征 下 。 


图 1 关键 词 多 特征 融合 方案 


4 ”关键 词语 义 功能 识别 模型 构建 


关键 词语 义 功能 识别 的 本 质 是 信息 抽取 问题 , 鉴 
于 深度 学 习 方 法 在 多 类 任务 中 的 优异 表现 ,文本 拟 将 
言 息 抽 取 问 题 转化 为 文本 分 类 问题 ,通过 采用 深度 学 
习 可 解 的 标签 判定 策略 实现 关键 词 的 语义 功能 判别 ， 
构建 语义 功能 识别 模型 。 在 对 关键 词 的 上 下 文 依赖 、 
位 置 以 及 先 验 知识 等 信息 进行 融合 表征 的 基础 上 , 进 
行 基于 深度 学 习 模 型 的 词汇 功能 识别 模型 设计 ,并 以 
文本 分 类 任务 中 表现 最 好 的 BERT 模型 作为 上 下 文 依 
赖 表 征 模 块 ,优化 深度 神经 网 络 拟 合 非 线性 的 能 力 , 针 
对 关键 词 有 关 研究 问题 和 研究 方法 的 语义 功能 进行 识 
别 。 
4.1 词汇 功能 识别 模型 原型 选择 

在 文本 处 理 任务 中 ,深度 学 习 模 型 通常 采取 预 训 
练 词 向 量 的 方法 为 后 续 任 务 提供 输入 信和 号 的 向 量化 表 
示 。 词 向 量 是 通过 浅 层 网 络 进行 无 监督 训练 将 词汇 映 
射 到 向 量 空 间 , 如 在 文本 处 理 中 广泛 使 用 的 
Word2Vec' “模型 ,该 方法 通过 构建 词 向 量 表 将 经 过 分 
词 处 理 的 文本 映射 到 多 维 向 量 空间 中 。 虽 然 该 方法 能 
够 在 词汇 层面 上 具备 较 好 的 效果 ,但 割裂 式 的 向 量化 
拼接 使 得 语句 级 的 向 量化 表示 缺少 对 连续 文本 内 在 联 
系 和 语言 结构 的 表达 能 力 。 除 此 之 外 ,静态 化 的 词 息 
入 方法 在 多 义 词 上 也 存在 着 巨大 的 局 限 性 ,无 法 结合 


全 人 .人 表示 上 下 文 依赖 特征 .关键 词 全 文 位 置 特 
征 、 关 键 词 列表 位 置 特 征 和 先 验 知识 特征 ;随后 ,对 拼 
接 后 的 关键 词 特 征 向 量 甩 = [ 自 , 亿 ,人 3 ,人 | 进行 tanh 函 


词汇 的 上 下 文 语义 进行 动态 向 量化 表示 ,如 apple 既 可 
表示 苹果 也 可 指 代 Apple 公司 。 针 对 现 有 方法 的 缺陷 ， 
Google AI 团队 于 2018 年 提出 了 一 种 基于 Transformer!5 
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模型 的 预 训练 向 量 表示 方法 一 一 BERT ( Bidirectional 
Encoder Representation from Transformers ) 5 。BERT 网 


络 模型 在 遵循 词 租 入 一 般 思想 的 基础 上 ,进一步 增加 了 


ken Embedding) .分割 艇 和 人 (Segment Embedding) 、 位置 
骨 入 (Position Embedding) 3 个 部 分 拼接 构成 。 相 较 传 
统 词 向 量 模型 ,BERT 网 络 模型 选择 深层 双向 的 编码 层 


词 向 量 模 型 的 泛 化 能 力 , 通 过 字符 级 、 词 汇 级 以 及 句子 
级 的 多 粒度 特征 关系 挖掘, 力求 能 够 对 文本 的 词性 、 句 
法 和 语义 等 信息 进行 充分 描述 。 由 图 2 所 示 BERT 向 
量 构 成 可 知 ,文本 的 最 终 向 量化 表示 由 词 条 舱 入 (To- 


完成 词 向 量 的 学 习 。 考 虑 到 单词 的 语义 依赖 于 其 所 在 
的 上 下 文 环境 , 即 它 左右 两 侧 的 茶 些 词 ,采用 结合 前 向 
和 后 向 的 双向 encoding 能 够 使 得 词 向 量具 有 上 下 文 关 
联 的 能 力 ,继而 实现 动态 化 的 向 量词 义 消 靶 。 
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ERT 模型 综合 运用 词 条 握 入 ,分割 柑 入 和 位 置 由 

种 信息 ,通过 Transformer 输出 含有 丰富 语 境 信息 
的 词 向 量 , 实 现 了 不 同 语 境 下 的 词 的 动态 向 量化 表示 。 
ee 


™ 
> 
Co 
©O 
3, 
©O 


语 境 实现 关键 词语 义 的 动态 表示 ,以 在 词汇 功能 
旋 浊 异型 训练 过 程 中 区 分 不 同 语 境 下 关键 词 的 不 同 语 
义 功 能 。 

4 多 特征 融合 的 关键 词语 义 功能 识别 模型 

(5 对 准确 理解 关键 词 在 科技 文献 中 的 语义 功能 世 


2 BERT 向 量 构 成 


目的 ,本 文 融合 关键 词 上 下 文 依赖 特征 、 位 置 特 征 和 先 
验 知识 特征 ,在 BERT 模型 的 基础 上 构建 关键 词语 义 
功能 识别 模型 ,在 对 多 种 特征 进行 向 量化 表示 之 后 ,将 
4 种 特征 向 量 进行 拼接 ,并 采用 注意 力 机 制 来 实现 不 
同 特征 的 权重 分 配 , 最 终 采 用 Softmax 分 类 器 对 融合 向 
量 进行 分 类 ,输出 关键 词 功能 类 别 。 

依照 上 述 设计 路 线 ,多 特征 融合 的 关键 词语 义 功 
能 识别 模型 可 分 为 输入 层 、 特 征 表 示 层 、 特 征 融 合 层 、 
检测 层 , 如 图 3 所 示 : 


En 和 未 层 = 沁 | 层 
输入 层 特征 表示 层 特征 融合 层 检测 层 
Y Y Y 
O 标题 摘要 | | | 
, 
基于 随机 从 林 的 人 体 部 件 分 类 方法 .人体 部 件 分 类 是 
;| 入 全 雪夫 大蒜 中 的 重要 前 所 和 统 深 应 梯 
|| 度 特征 下 的 随机 森林 分 类 方法 虽 大 到 实时 性 的 | 
:| 垩 求 ， 但 仍 存在 准确 度 不 高 、 对 咒 不 够 重 棒 、 内 存 消 f 
二 || 革 过 大 等 仙 点 。 为 此 ， 提 出 传统 次 度 特征 与 RGB 边缘 一 让 | 襄 条 化 | BERT 一 一 名 | 
| 特征 相 融 合 的 一 种 新 的 分 类 方法 ， 并 在 特征 维度 加 大 | 
的 情况 下 引 。 实验 结果 表明 ， 该 特征 
也 的 运行 时 间 ， 还 可 以 
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3 多 特征 融合 的 关键 词语 义 功 能 识别 模型 
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输入 层 通过 从 原始 数据 中 抽取 能 够 输入 到 模型 的 
信息 ,包括 各 特征 对 应 的 原始 数据 及 对 其 所 施加 的 预 
处 理 。 对 于 上 下 文 特征 ,本 文通 过 将 文章 标题 .摘要 和 
关键 词 进行 拼接 来 构成 原始 数据 ,通过 词 条 化 预 处 理 ， 
将 文字 序列 分 割 开 来 ,作为 输入 数据 。 对 于 全 文 位 置 
信息 ,首先 采用 文献 ' ”所 提出 的 章节 功能 识别 方法 ， 
将 全 文 各 章节 按照 文献 “提出 的 结构 功能 框架 划分 
为 引言 .相关 研究 .人 研究 方法 、 实 验 和 研究 结论 5 个 章 
节 , 并 统计 关键 词 在 各 章节 的 出 现 频次 ,作为 输入 数 
据 。 对 于 关键 词 列表 位 置信 息 , 通 过 匹配 关键 词 列表 
获取 关键 词 位 置 序号 。 对 于 先 验 知识 ,通过 统计 某 一 
关键 词 在 自 建 训 练 数据 集中 分 别 被 标注 为 问题 方法、 
其 他 等 3 种 类 型 功能 的 次 数 来 获得 关键 词 先 验 知识 数 
所 一 


特征 表示 层 针 对 预 处 理 后 的 原始 数据 ,采用 不 同 
污 实 现 原始 数据 的 向 量化 表示 。 对 于 上 下 文 依赖 特 
徙 数据, 采用 Google 预 训练 的 中 文 BERT 模型 处 理 标 
题 导 要 与 关键 词 的 拼接 数据 ,将 BERT 模型 输出 的 向 
量 作 为 上 下 文 依赖 特征 。 对 于 全 文 位 置 统计 数据 ,为 


“| 


训 硬 数据 处 理 通 过 归 一 化 (Normalization ) 将 位 置 频次 
转借 为 [0,1] 之 间 的 小 数 ,生成 5 维特 征 向 量 。 对 于 关 
键 司 列 表 位 置 序号 数据 ,通过 统计 自 建 训练 数据 集 文 
献 沿 关键 词 数 得 出 平均 值 5, 因 此 同样 将 关键 词 列表 
位 车 特征 表示 为 5 维 向 量 ,采用 One-hot 形式 进行 编 
砚 狼 根据 关键 词 位 置 序号 将 对 应 位 置 的 数字 设 为 1， 
他 位 置 数字 为 0。 对 于 先 验 知识 ,通过 统计 某 一 关 
键 过 在 自 建 训 练 数据 集中 分 别 被 标注 为 问题 ,方法 和 
其 何 3 种 类 型 功能 的 次 数 来 获得 关键 词 先 验 知识 数 
据 ,并 对 其 进行 归 一 化 ,生成 3 维特 征 向 量 。 

特征 融合 层 采用 3. 2 节 所 设计 的 融合 方案 ,采用 
注意 力 机 制 将 各 种 特征 进行 加 权 融 合 , 实 现 各 特征 的 
权重 分 配 。 

输出 层 采用 两 层 全 连接 网 络 作为 检测 模型 ,最 后 
通过 Softmax 分 类 器 对 特征 向 量 进行 分 类 ,输出 结果 标 
签 


O 


5 关键 词语 义 功能 识别 实验 


5.1 数据 标注 

由 于 目前 还 没有 标准 的 学 术 文献 关键 词语 义 功能 
识别 语料库 可 用 于 实验 研究 ,本 文 将 根据 自 建 的 语 料 
库 完 成 对 研究 问题 与 研究 方法 的 识别 任务 。 自 建 数 据 
集 的 数据 来 源 为 中 国 知 网 数据 库 收录 的 《计算 机 工 
程 兴 计算 机 科学 兴 计 算 机 学 报 兴 模式 识别 与 人 工 智 


能 》 等 期 刊 近 10 年 (2009 -2018 年 ) 发 表 的 100 025 篇 
研究 型 论文 的 标题 .摘要 和 关键 词 ,根据 论文 标题 和 摘 
要 对 关键 词 进行 了 机 器 和 人 工 标注 。 出 于 实用 性 考 
虑 ,采用 一 个 简单 通用 的 关键 词语 义 功能 分 类 方案 ,将 
计算 机 领域 关键 词语 义 功能 界定 为 研究 问题 .研究 方 
法 和 其 他 3 个 类 别 。 对 于 规律 性 较 强 的 标题 ,例如 “ 基 
于 XX 的 XX”, 采 用 模板 匹配 的 方法 进行 数据 标注 ,并 
进行 人 工 审 核 。 对 于 规律 性 不 强 的 标题 ,采用 人 工 标 
注 , 在 标注 过 程 中 ,共有 2 位 情报 学 博士 研究 生 和 2 位 
情报 学 硕士 研究 生 参 与 数据 标注 工作 ,数据 标注 共 经 
过 两 轮 标 注 ,第 一 轮 由 个 人 标注 ,第 二 轮 标注 对 于 个 人 
无 法 确定 的 数据 ,由 4 位 同学 投票 决定 数据 类 型 。 经 
过 人 工 标注 和 筛选 , 共 获 得 310 214 条 数据 ,其 中 ,标记 
为 "方法 "的 关键 词 为 102 278 个 ,标记 为 “问题 "的 关 
键 词 为 102 504 个 ,标注 为 “其 他 ”的 关键 词 为 105 432 
个 。 将 310 214 条 标注 数据 按照 8:1:1 的 比例 划分 为 
训练 集 、 验 证 集 和 测试 集 ,具体 数量 如 表 1 所 示 : 
表 1 实验 数据 统计 


类 别 训练 集 / 条 ”验证 集 / 条 ” ”测试 集 / 条 总 计 / 条 
问题 82 003 10 250 10 251 102 504 
方法 81 822 10 228 10 228 102 278 
其 他 84 346 10 543 10 543 105 432 
总 计 248 171 31 021 31 022 310 214 


5.2 实验 步骤 与 设置 

实验 在 Ubuntu16. 4 操作 系统 + Python3.6 编程 环 
境 下 进行 ,采用 Tensorflow 深度 学 习 框 架构 建 关 键 词语 
义 功能 识别 模型 并 进行 训练 。 首 先 , 按 照 关键 词语 义 
功能 识别 模型 中 设计 的 4 种 关键 词 特征 进行 特征 抽取 
并 保存 ,对 于 入 特征 ,利用 Google 提供 的 中 文 BERT 预 
训练 模型 读 取 由 标题 .摘要 ,关键 词 的 拼接 而 成 的 字符 
序列 , 设 定 最 大 字符 长 度 为 512, 并 输出 维 数 为 768 的 
向 量 ; 对 于 也 特征 ,由 于 无 法 获取 文献 全 文 数据 ,实验 
时 采用 摘要 作为 替代 ,设置 摘要 长 度 为 5 条 语句 ,对 于 
超过 5 条 的 截取 前 5 条 ,对 于 不 足 5 条 语句 的 摘要 进 
行 空格 填补 ,统计 关键 词 在 摘要 每 条 语句 中 出 现 频次 ， 
并 对 统计 结果 进行 归 一 化 处 理 , 输 出 5 维 向 量 ;对 于 多 
寺 征 ,根据 关键 词 在 关键 词 列表 中 出 现 的 位 置 输出 4 
维 向 量 ;对 于 和 4 特征 ,根据 关键 词 在 数据 集中 不 同 语 
义 功能 类 型 的 出 现 频 次 进行 归 一 化 处 理 ,输出 3 维 向 
量 。 随 后 ,根据 实验 需要 对 4 种 特征 向 量 进行 拼接 组 
合 , 输 入 到 由 Attention 机 制 和 双全 连接 层 构成 的 分 类 
模型 中 ,进行 分 类 模型 训练 。 为 了 防止 过 拟 合 和 提高 
模型 鲁 棒 性 ,采用 指数 衰减 法 优化 深度 学 习 速 率 ( 每 训 
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练 500 步 衰减 5% ) ,在 模型 的 全 连接 层 添加 了 Drop- 
out, 并 在 训练 过 程 中 采用 了 Early stop 策略 ,并 运用 自 
动 调 参 工具 Talos 进行 了 参数 优化 ,最 终 参数 如 表 2 所 
未 : 


参数 参数 值 
Epoch 10 
Dropout 0.2 
Batch_size 32 
激活 函数 Relu 
学 习 率 0.002 
全 连接 层 神 经 元 个 数 400 100 


5.3 ”实验 结果 与 分 析 
__ 实 验 采 用 文本 分 类 常用 的 准确 率 ( Accuracy ) 、 精 
确 率 ( Precision) .召回 率 (Recall ) 指标 评价 词汇 功能 识 
型 的 性 能 ,并 采用 Fl (Fl-measure) 指标 评价 其 综 
合 画 能 。 实 验 通过 设置 对 照 组 分 别 检验 不 同 特征 模型 
的 仲 能 ,在 关键 词语 义 功能 识别 实验 中 ,实验 目的 为 : 

一 (1) 验 证 Attention 融合 方法 的 有 效 性 ,对 4 种 特征 
的 猜 接 向 量 施加 Attention 权重 获得 融合 向 量 ,对 比分 
榴 了 Attention 权重 的 和 未 加 Attention 权重 的 关键 词 各 
济 文 功能 类 别 的 宏 平均 结果 。 
QJ(2) 比较 各 类 特征 模型 识别 性 能 的 影响 ,获取 最 
有 效 的 特征 组 合 。 首 先 计算 只 采用 BERT 上 下 文 依赖 
特征 时 的 模型 性 能 ,并 以 此 为 基础 ,采用 Attention 融合 
方 索 分 别 计算 不 同 特征 与 BERT 上 下 文 依赖 特征 组 合 
时 粮 型 在 各 类 语义 功能 上 表现 性 能 的 宏 平均 结果 ,以 
确定 各 特征 融合 后 的 效果 差异 。 

“(3) 比 较 不 同类 型 语义 功能 识别 效果 ,分 析 不 同 
类 别 语义 功能 识别 差异 。 选 取 步 又 1 中 识别 效果 最 好 
的 特征 组 合 ,分 别 比较 模型 对 方法 .问题 和 其 他 3 种 类 
型 词汇 的 识别 性 能 。 

实验 结果 如 表 3 - 表 5 所 示 : 
表 3 特征 融合 方案 性 能 对 比 


特征 融合 方案 Recall Precision Fl Accuracy 
拼接 + Attention 0.973 0.973 0.973 0.978 
拼接 0. 965 0.967 0.965 0.972 


从 实验 结果 表 3 中 可 以 看 出 ,采用 拼接 + Attention 
的 融合 方案 各 评价 指标 均 高 于 仅 采 用 拼接 进行 融合 的 
方案 。 这 一 结果 说 明 ,Attention 机制 能 够 有 效 区 分 特 
征 向 量 中 各 特征 值 的 权重 ,对 重要 特征 值 赋予 更 高 的 
权重 ,为 后 续 处 理 传递 关键 及 重要 信息 ,使 模型 做 出 更 
加 准确 的 判断 。 然 而 ,此 处 的 Attention 机 制 对 拼接 后 


表 4 不 同 特征 组 合 模型 识别 结果 对 比 


特征 Recall Precision Fl Accuracy 
位 0.917 0.920 0.918 0.924 
全 + 人 2 0.920 0.930 0.925 0.933 
fl+f3 0.923 0.923 0.923 0.930 
全 + 伍 0.967 0.967 0.967 0.974 
fl+ 亿 + 0.917 0.937 0.927 0.938 
全 + 他 + 余 0.967 0.970 0.968 0.975 
全 + 亿 + 余 0.973 0.963 0.968 0.970 


位 + 亿 + 人 名 + 位 0.973 0;973 0.973 0.978 


表 5 所 有 特征 融合 的 词汇 功能 识别 结果 对 比 


类 别 Recall Precision Fl 

方法 0.980 0.980 0.980 
问题 0. 960 0. 970 0. 965 
其 他 0.980 0.970 0.975 


的 特征 向 量 进行 加 权 ,无 法 区 分 4 种 特征 的 特征 权重 ， 
仅 是 对 拼接 后 的 特征 值 进 行 加 权 。 

从 实验 结果 表 4 中 可 以 发 现 ,各 种 特征 的 加 入 均 
有 效 提 升 了 Fl 值 ,融合 所 有 特征 的 模型 取得 了 最 优 效 
果 , 召 回 率 为 0. 973 , 精确 率 为 0.973 ,Fl 值 为 0. 973 ， 
准确 率 为 0.978 。 这 一 结果 说 明 所 设计 的 关键 词 特征 
能 够 有 效 提升 关键 词语 义 功 能 识别 性 能 。 通 过 对 比 加 
人 了 先 验 知识 特征 和 没 加 入 先 验 知识 特征 的 模型 性 
能 ,可 以 发 现 加 入 先 验 知识 特征 之 后 模型 分 类 效果 有 
了 较 大 提升 ,说 明 实 验 数 据 中 的 论文 研究 多 遵循 先 验 
知识 规律 ,对 于 模型 识别 效果 有 着 较 大 帮助 。 通 过 对 
比 关键 词 位 置 特征 实验 结果 发 现 ,关键 词 位 置 特征 对 
于 模型 的 精确 率 有 一 定 的 提升 ,而 召回 率 提 升 有 限 , 说 
明 关 键 词 位 置 特征 能 够 帮助 区 分 关键 词 功 能 类 别 ,而 
对 关键 词类 别 内 的 规律 挖掘 有 限 。 

从 实验 结果 表 5 中 可 以 看 出 ,人 研究 方法 的 精确 率 
为 0.98 ,召回 率 为 0.98 ,Fl 值 为 0.98, 在 各 个 指标 上 
均 高 于 或 等 于 其 他 类 别 ,这 是 由 于 人 研究 方法 的 创新 难 
度 较 大 ,大 部 分 研究 均 使 用 已 有 的 研究 方法 。 特 定 领 
域 中 研究 方法 ,通常 均 能 找到 所 对 应 的 约定 表述 方式 ， 
模型 能 够 更 好 地 对 其 进行 识别 和 判定 。 而 对 于 问题 类 
关键 词 ,在 研究 过 程 中 较为 容易 发 现 新 的 研究 问题 ,其 
表达 形式 则 显得 更 为 多 变 和 复杂 , 故 其 Fl 值 和 准确 率 
相对 较 低 。 


6 ”结语 


研究 学 术 文献 中 的 关键 词语 义 功能 可 以 从 更 深层 
次 或 者 偏重 于 语义 的 角度 理解 学 术 文本 词汇 级 别 的 结 
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构 , 以 便 理解 不 同 词汇 在 文献 中 的 功能 角色 ,进而 提升 
学 术 文献 检索 系统 的 准确 性 ,缩短 用 户 搜寻 时 间 。 本 
文 在 关键 词 上 下 文 依赖 特征 的 基础 上 ,结合 关键 词 位 
置信 息 和 先 验 知识 对 关键 词语 义 功 能 进行 了 识别 , 设 
计 了 关键 词 位 置 特征 和 先 验 知识 特征 表示 方法 ,并 采 
用 深度 学 习 方法 构建 了 关键 词语 义 功 能 识别 模型 。 在 
自 建 计算 机 期 刊 文献 数据 集 上 的 实验 表明 ,本 文 所 构 
建 的 多 特征 融合 的 关键 词语 义 功 能 识别 模型 识别 平均 
精确 率 达 到 了 0.973 , 优 于 只 采用 部 分 特征 的 方法 。 
由 于 词汇 功能 标注 数据 集 匮乏 , 本文 仅 针对 学 术 
文献 中 的 关键 词 进行 了 语义 功能 识别 , 且 仅 识别 了 问 
题 与 方法 两 种 语义 功能 ,未 能 实现 学 术 文本 全 文 词汇 
的 多 类 型 语义 功能 识别 。 未 来 将 不 断 积累 词汇 语义 功 
能 数据 ,构建 更 大 规模 的 数据 集 ,并 设计 更 为 全 面 的 词 
泊 弓 义 功能 类 型 。 同 时 ,基于 对 学 术 文本 全 文 的 认 知 
理解 ,深入 挖掘 潜在 论文 写作 规律 ,探索 词汇 功能 识别 
新 穷 法 ,以 期 找到 最 有 效 的 学 术 文 本 词汇 功能 识别 方 
法 间 使 之 能 够 应 用 于 其 他 的 学 术 文本 挖掘 研究 中 。 
另外 ,在 完成 学 术 文 本 词汇 功能 识别 之 后 ,如 何 进一步 
活 蛋 应 用 同样 是 下 一 步 研究 的 重点 ,在 未 来 的 研究 中 
二 人 启 汇 功能 应 用 于 文献 推荐 .关键 词 抽取 自动 摘要 
和 苦 识 图 谱 等 研究 中 ,不 断 拓 展 词汇 功能 应 用 领域 。 
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Abstract: | Purpose/significance | Keywords, as a kind of vocabulary or term that can reveal the subject and 
core content of a text, can identify the functions and provide the underlying index support for fast and accurate acqui- 
sition of knowledge and documents. | Method/ process| Aiming at the existing studies that are mostly limited to the 
semantic representation of symbols at the text level in vocabulary context modeling, this paper proposes a lexical func- 
tion recognition model based on multi-feature fusion. On the basis of capturing the context-dependent features of key- 
words using the BERT model, the position information of keywords in the keyword list and the full text and prior 
knowledge of vocabulary functions are fused, and then the attention mechanism and feed-forward neural network are 
used for the identification of key words by problem-solving method. | Result/conclusion | The experimental results 
Bow that both the location information and priori knowledge of the keywords can improve their word function recogni- 

Con effect, and the prior knowledge has a greater contribution to the recognition effect. 


Keywords: lexical function recognition academic text keyword BERT multi-feature fusion 
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